查看原文
其他

【情报手册】如何进行有效的在线查询(第一部分)

多米特 情报分析师 2022-09-22


点击下方小卡片关注情报分析师

《进行有效在线查询的指南》共三部分。第一部分研究了信息偏见影响调查的可能性,以及在设计有效的研究方法时减轻这种偏见的重要性。第二部分和第三部分将讨论有用的技巧和技术,以提高在线搜索的有效性,同时减轻收集开源信息时偏见的影响。

完整版《进行有效在线查询的指南》三部曲中英文识别文章底部二维码加入情报学院知识星球APP下载。


第一部分:收集开源信息时的偏见来源

介绍

虽然通常不像验证开源内容的技术那样受到那么多的关注,但识别和收集内容的初始阶段,伯克利数字开源调查协议称之为“在线查询”,是一切的开始。这个过程通常决定了研究人员将使用的材料,并最终决定了将要得出的结论。

这也是偏见可以显着影响调查的阶段,这源于研究人员收集信息的方法以及他们使用的工具和平台。“虽然开源信息具有明显的民主化潜力,但存在一种风险,即在调查中更多地采用开源研究方法可能会无意中使一些最边缘化的人群沉默,”并且“数字开源信息可能像任何其他形式的证据一样容易受到主观性和偏见的影响。

在线查询中的偏见

无论是搜索与特定调查相关的开源内容,还是实时监控潜在的侵犯人权行为,在线查询过程都涉及尝试不同的搜索词,搜索引擎和其他数字工具和资源,以确定相关信息的彻底收集。

虽然,鉴于通过开源提供的内容量巨大,并且通常可以分配给调查的时间有限,因此通常不可能进行详尽的调查过程。因此,研究人员面临的主要挑战是在最大化其搜索返回的相关内容量与最小化不相关结果之间取得适当的平衡。

因此,在设计和进行此类在线查询时,研究人员必须仔细考虑他们的方法最有效地捕获了哪些信息,以及可能忽略的信息。这包括对研究人员本身的偏见以及用于进行搜索和监控的工具的认识。McDermott等人将这些分别称为认知和技术偏见。

认知偏差

在开源发现过程中确定的内容在很大程度上取决于研究人员的方法和决策 - 这不可避免地受到偏见的影响。例如,在证据收集过程中选择的搜索词、探索的在线平台以及关注的事件或违规行为的类型可能会受到研究人员对相关语言的了解以及围绕被调查主题的上下文的严重影响。

如果研究人员使用特定位置使用的主要语言以外的语言进行搜索,他们的结果将遗漏大量可用材料,最有可能是由最接近事件的人共享的内容。在线语言翻译工具对于面临这些挑战的开源研究人员可能很有用,但是,这些工具不能替代熟练的人工翻译和本地知识。

过度依赖这些工具可能会引入额外的技术偏见(如下所述),因为这些工具通常不会产生复制母语人士可能所说的翻译,也没有有效地考虑当地术语。即使研究人员确实了解相关语言但不了解研究背景,在开发搜索术语时,某些俚语或编码语言也可能不被理解或考虑。

这可能导致某些类型的侵犯人权行为或犯罪在收集的信息中代表性不足或完全被遗漏。例如,根据Alexa Koenig和Ulic Egan在他们的文章“权力和特权:用数字开源信息调查性暴力”中的说法,尽管有常见的误解,但与性暴力和基于性别的暴力相关的内容实际上是在线共享的,但它经常使用编码语言来描述,研究人员通常不熟悉,因此不会寻找。

认知偏差也可能是由研究人员自己对研究主题的先入之见或意见引起的。例如,研究人员可能已经采用了他们正在调查的事件的叙述,导致他们对将找到哪些类型的侵权行为的证据以及哪些内容最相关,对受害者/肇事者角色的假设,或以其他方式围绕预定的假设塑造在线调查。.

这可能导致确认偏见,某些内容被驳回或忽略,以支持最能支持或加强这些初步理解的信息。在研究高度政治化的事件时,这种偏见可能特别重要,其中党派媒体报道或个人意见可能导致调查人员“偏袒”(有意识或无意识地),这将影响他们在进行在线查询时如何解释和识别内容。

与研究人员自己的认知偏见并行,开源信息收集也可能受到进行调查的数字媒体环境的影响。这包括谁可以获得技术,数字连接的不公平水平,以及某些事件(如空袭或警察暴力)比其他事件更有可能被看到的事实。

同样,视觉上引人注目的证据,特别是描述令人震惊的滥用行为,经常被社交媒体用户放大。“病毒式传播”的事件可能会淹没其他内容,使研究人员识别和创造此类事件可能受到不成比例的关注的风险更具挑战性。

某些类型的违规行为更明显,因此很容易记录下来,这意味着此类事件在开源证据收集中可能不成比例地代表,从而产生一种情况,即收集的信息没有涵盖实际发生的全部违规行为。

技术偏差

影响在线信息来源的其他形式的偏见可能“内置”到开源研究人员所依赖的工具和平台中。Google和Bing等搜索引擎不是“中立的”,搜索算法返回的结果以及给予某些结果的优先级受到诸如研究人员的位置,搜索历史记录,内容的受欢迎程度以及内容创建时间等细节的影响。

这种“算法偏差”导致搜索引擎放大某些来源和声音,特别是那些流量很大或可以支付优先级的搜索引擎。这使得开源研究人员更难识别通常与他们的调查最相关的内容,反过来,也可能导致某些信息被忽视。

虽然更接近中立搜索是可能的,并且通常是研究人员在在线搜索内容时实施的有效策略(在本系列的第二部分中介绍),但使用搜索引擎时算法偏差的影响永远无法完全消除 - 搜索算法将始终在研究人员看到的结果中发挥作用。

技术偏见也存在于开源研究人员经常依赖的许多在线社交媒体平台中。每个平台都以算法高度确定的方式对内容进行排序和提供(特别是在YouTube或TikTok的情况下),并为研究人员提供不同程度的“可搜索性”,以便研究人员根据关键字,位置,发布日期等识别内容。

例如,Facebook的搜索功能非常有限,这使得开源研究人员更难识别相关内容,特别是当Facebook是他们所工作环境中的主要社交媒体平台时。此外,越来越多的在线内容在半封闭的网络中共享,例如WhatsApp聊天,Telegram频道或私人Facebook群组。

在这些网络上共享的信息最终可能会出现在“开放”平台上,研究人员可以更容易地识别它们,但是,特别是在半封闭网络使用更广的国家或环境中,开源研究人员必须假设大量潜在的相关内容被限制在这些空间中。虽然研究人员可能会寻求访问这些网络,但这样做可能会带来实质性的道德,法律和安全考虑。

上传到社交媒体的内容也受到越来越多的审核,每个平台都开发了自己的方法来和标准来删除信息和用户,通常严重依赖算法。记录某些违规行为的内容,特别是涉及血腥伤害或暴力的内容,以及与特定群体和意识形态相关的内容,更有可能被内容审查员标记并在研究人员能够识别和保留之前将其删除。

社交媒体平台在信息收集过程中产生了额外的偏见,这主要是因为它们的设计是为了与同行沟通,而不是作为人权文件的存储库。首先,几乎所有主要的社交媒体平台都会从上传的图像和视频中删除可能有价值的元数据。

这使得研究人员在搜索开源信息时按位置过滤内容更具挑战性,特别是因为很少使用特定于平台的选项供用户“地理标记”其帖子。相反,研究人员必须依靠上传者自己的标题或带有位置信息的帖子标记,斯科特·爱德华兹(Scott Edwards)称之为“自结构化标记”,这通常是高度可变的。

例如,一个社交媒体用户可能包含有关事件发生的确切城镇或城市的信息,这使得研究人员更有可能在他们的在线搜索中识别此帖子,而另一个社交媒体用户可能会提供更一般的位置信息,导致此类内容未被发现。

此外,由于社交媒体平台主要用于公众成员的日常交流,因此上传者使用的语言通常是口语化的,并且可能受到与内容主题相关的信仰或态度的影响。上传者经常使用第一人称术语和表现语言特征,这些术语是目睹了重大事件的人,但不一定是人权研究人员在进行搜索时最有可能使用的那些术语。

同样,社交媒体用户在分享内容时可能会寻求推进特定的叙述或议程。正如爱德华兹所写,“两个人在公开场合分享的同一段视频可以被一个人描述为'被军队屠杀的土著抗议者',另一个人被描述为'警察击退外国恐怖袭击'。

本指南的第三部分将讨论如何理解经历此类事件的人的观点以及他们可能用于描述这些事件的语言,以帮助调查人员识别相关内容。然而,社交媒体平台上缺乏一致的标记和分类系统,这意味着研究人员必须根据这种媒体格局调整他们的研究方法,以便识别此类内容。

结论

虽然研究人员可能无法完全缓解与在线查询过程相关的这些挑战,但在数字开源研究中,对潜在偏见来源的更多关注以及识别和解释此类偏见的有效策略可以大大降低其影响。这些战略是成功的开源数据收集或监测方法的重要组成部分,既有助于限制偏见的影响,又作为这种影响的产物,导致更有效和更彻底的信息收集。

本指南的第二部分和第三部分将讨论有用的技巧和技术,以提高在线搜索的有效性,同时减轻收集开源信息时偏见的影响。完整三部分已上传至情报学院知识星球,长按识别下方二维码加入知识星球APP下载。




往期推荐

【实战技法】如何使用创造力和太阳计算器进行图像地理定位

【情报教程】网络舆情的特点及分析研判的角度和方法

美国总统乔·拜登的性格特征和领导风格分析

【情报教程】信息收集和情报共享指南

【情报课堂】开源情报(osint)理论及其使用方法


点个赞,证明你还爱我

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存